| 分類 | 技術 | 説明 | サンプルコード |
|---|---|---|---|
| 形態素解析 | mecab | 辞書ベースの日本語形態素解析ツール | import MeCab; mecab = MeCab.Tagger() |
| 形態素解析 | SudachiPy (spacy ginza) | モードA(厳密分割)、B(中間)、C(広義分割)を選択可能 | from sudachipy import tokenizer; tokenizer_obj = tokenizer.Tokenizer() |
| 形態素解析 | SentencePiece | 統計的手法を用いたトークン化ツール | import sentencepiece as sp; sp.SentencePieceTrainer.train('--input=text.txt --model_prefix=m') |
| 正規化 | unicodedata.normalize('NFKC', text) | 文字列を正規化し、全角と半角や濁音・半濁音を統一 | import unicodedata; text = unicodedata.normalize('NFKC', text) |
| 同義語辞書 | WordNet | 英語の同義語・対義語辞書 | from nltk.corpus import wordnet; synonyms = wordnet.synsets('word') |
| 同義語辞書 | Chikkarpy | Sudachi 同義語辞書を基に作られたPythonライブラリ。CLIやPythonとして利用可能。 | from chikkarpy import synonym; synonym = synonym.search("単語") |
| 同義語辞書 | Sudachi 同義語辞書 | 日本語に特化した同義語辞書。CSV形式で記述し、Sudachi辞書に組み込むことで利用可能。 | 準備中。具体的な技術が必要に応じて記載します。 |
| 不要語 | SlothLib | 日本語ストップワードリスト | from slothlib import STOPWORDS |
| 分散表現 | SentenceTransformer | 文や単語を多言語でベクトル化 | from sentence_transformers import SentenceTransformer; model = SentenceTransformer('intfloat/multilingual-e5-large') |
| ベクトルDB | chromadb | 高速ベクトル類似度検索 | import chromadb |
| 編集距離 | rapidfuzz | 文字列間の編集距離を計算 | from rapidfuzz import fuzz; similarity = fuzz.ratio("string1", "string2") |
| クラスタリング | 階層クラスタリング | SciPyを用いた階層クラスタリング | from scipy.cluster.hierarchy import linkage |
| 全文検索 | Whoosh | Python用全文検索エンジン | from whoosh.index import create_in; ix = create_in("indexdir") |
| 全文検索 | ElasticSearch | 高機能な全文検索プラットフォーム | from elasticsearch import Elasticsearch; es = Elasticsearch() |
| 全文検索 | DoqueDB | SQLベースの日本語に強い全文検索エンジン。Sudachi辞書と組み合わせて利用可能。 | SQL構文を使用した検索で同義語展開を適用できます。 |
| 検索 | 正規表現 | テキスト検索や文字列操作 | import re; result = re.search(pattern, text) |
| 文字列抽出 | tika | ファイルから文字列を抽出 | from tika import parser; text = parser.from_file('file.pdf') |
| PDF解析 | PyMuPDF(fitz) | PDFファイルを解析する軽量ツール | import fitz; doc = fitz.open("file.pdf") |
| PDF解析 | PDFMiner | 詳細なPDF解析ツール | from pdfminer.high_level import extract_text; text = extract_text('file.pdf') |
| 表認識 | Camelot(OCRベース) | PDF表からデータを抽出 | import camelot; tables = camelot.read_pdf("file.pdf") |
| 表認識 | Azure AI Document Intelligence | MicrosoftのAIツールで表を認識し、様々なドキュメント分析が可能。 | from azure.ai.documentintelligence import DocumentIntelligenceClient |
2025年6月17日火曜日
使いそうな技術
政府統計
・職業情報ダウンロード https://shigoto.mhlw.go.jp/User/download 職業情報データアーカイブ | 職業情報提供サイト(job tag)
-
【人生の経営戦略】能力よりポジショニング/アリストテレス的人生を目指せ/人的資本→社会資本→金融資本/人生ゲームの構造/絶好調な30代は危険/就活ゲームの落とし穴/経験の https://www.youtube.com/watch?v=eTMUWy9OG9Y 【中年の人生戦...
-
3秒で伝える 論理構築 結論(主張)→理由(根拠)→事実(データ) 結論が見つかっていない場合は逆から考えていく。 仕事を請け負うときの質問 何のために・何を・いつまでに (目的・アウトプット・期日) フレームワーク 「PREP」「TPREP」「TNPREP」「IREP」...
-
【仕事の質を上げる生成AIの使い方】第一人者・深津貴之がゼロから解説/「AIに雑用をさせるな」/英会話の生成AI勉強法/DeepResearchの衝撃【CROSS DIG 1on1】 ・AIは後ろに続く文章を考えるので、前に何を置くかが大事 ・単純作業をさせるのではなく、自分が成...